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Использование динамических портретов звука 
при распознавании речевого сигнала 


Рассматривается научная проблема распознавания речевых образов. Проведен анализ современных 
компьютерных средств голосового управления. Сформулирована структура пользовательского 
звукового интерфейса. Предложено использование динамических портретов звука как части процесса 
определения параметров анализируемого звукового сигнала. 


Общая постановка проблемы 


Дальнейшее распространение использования различных информационных систем 
приводит к необходимости предоставления пользователю максимальных удобств при 
работе с компьютером в режиме диалога. Тенденции совершенствования коммуни- 
кационного интерфейса ведут к упрощению диалога пользователя с ЭВМ. В последние 
годы разработке удобного интерфейса уделяется пристальное внимание со стороны 
ведущих производителей программных продуктов. Привычным стандартом стали много- 
оконные системы, оснащенные визуальными средствами управления в соответствии с 
принципами СУТ (ОгарЫса| Озегз пие{асе). Управление информационными системами 
больше не требует поиска нужной клавиши на клавиатуре. Все осуществляется наглядно, 
и пользователь видит результаты своих действий на мониторе компьютера, в любой 
момент он может обратиться к системе помощи, которая стала неотьемлемым 
компонентом любой информационной структуры. 

В конечном итоге интерфейс пользователя компьютерной системы должен 
обеспечивать возможность общения с ней на естественном языке, в том числе и с 
помощью речи. На рис. 1 приведена возможная структура вычислительной системы 
со звуковым интерфейсом. 
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Рисунок 1 — Структура звукового интерфейса 
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В настоящее время следует отметить преимущественные успехи в решении задач 
синтеза звука по сравнению с распознаванием звуковых образов и понимания речи. 

Тем не менее, уже сейчас можно выделить ряд областей, где применяется 
анализ звука и речи. Упомянем лишь некоторые из них, где производится измерение 
параметров речи: биометрия, судебная экспертиза, медицина. Голос человека можно 
использовать как пропуск в системах с ограничением доступа (например, в автома- 
тическом контрольно-пропускном пункте, КПП). При производстве судебной экспертизы 
материалов звукозаписи часто нужно провести идентификацию личности. Можно 
определять эмоциональное состояние (уровень стресса) по параметрам устной речи. 
Такой способ имеет то преимущество, что к человеку не нужно присоединять датчики. 


Анализ современных средств речевого управления 


Существует ряд программных продуктов, позволяющих пользователю осу- 
ществлять ввод текста голосом; управлять голосом периферийным оборудованием; 
осуществлять голосовое управление отдельными функциями операционных систем; 
осуществлять голосовое управление функциями текстовых редакторов и прикладных 
программ; оформлять документы (включая формулы). Среди таких программ можно 
выделить: 

— Ана Глепег фирмы Рготефец$ ргодис; 

— «Горыныч» фирмы УолсеГ.оск; 

— ПМЗ Рго Уосе Соттапа корпорации Соттапа Сотр; 
— Гл$еп компании Уефех Уо1се Зузет $; 

— Ошск5\уйсв фирмы ВИ\аге Сопзи ип. 

Также имеется ряд программ для диктовки — речевой ввод текстовой и 
цифровой информации, например: 

— МацгаПубреаКтае РгеГатеа (Огагоп Зу${еп1$); 
— Ма Уотсе 98 Ехесийуе ЕЧюоп (ВМ); 

— Устсе Хргезз РгоЁе$$1опа[ (Гегпой{ & Наязрте); 
— Егеебреесв 98 (РЫ рэ). 

К основным недостаткам этих программ можно отнести следующие [1,с 5]: 

— диктовка должна осуществляться по словам, то есть после каждого слова нужно 
делать паузу, что не совсем удобно и понижает скорость набора текста; 

— длительная настройка программы интерфейса на конкретного диктора, обучение 
системы, для получения некоторой базы слов (иногда достаточно большой). 
Например, для программы «Горыныч» фирмы УотсеГосК этот объем составляет 5000 
слов, а в коммерческой версии — 10000, причем эта база может постоянно 
пополняться; 

— достаточно высокая цена. 

Существует множество подходов и методов решения задачи распознавания 
речи. Выделим из них три основных метода [2-4]: 

— использование искусственных нейронных сетей как мощного средства распозна- 
вания образов; 

— использование спектрального представления сигнала для выделения фонем звуков 
в слитной речи; 

— метод линейного предсказания. 
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Актуальным является вопрос первичного описания речи, поиска таких форм 
его представления, которые обеспечивали бы простое и надежное выделение 
информативных признаков сигнала. 

Для эффективного акустического анализа важно, с каким представлением 
исходного сигнала работает система автоматического распознавания речи, какие 
параметры выделяются для последующей фонетической обработки и как эти 
параметры могут быть надежно выделены в речевом сигнале. 

Основной идеей настоящей работы является использование динамических 
портретов звука как составной части процесса автоматического распознавания 
речи и позволяющих решить научно-техническую задачу определения основных 
параметров анализируемого звукового сигнала. 


Построение динамических портретов звука 


Динамические портреты звукового сигнала — достаточно удачная форма 
представления речи, позволяющая выявить наиболее характерные, сравнительно 
инвариантные свойства звуков, различительные признаки отдельных звуков и их 
классов [4]. 

Динамический портрет звука состоит из трех составляющих: 

— массив максимальных значений (контур интенсивности) — все значения отчетов 
(выборок) параметрического кода сигнала заменяются значением максимального 
отсчета на интервале времени Т определенной длительности. Полученный массив 
нормируется по амплитуде для всего анализируемого отрезка речевого сигнала; 

— контур числа переходов через ноль — подсчитывается число переходов через ноль 
на том же интервале времени Т, что и в случае контура интенсивности; 

— контур числа нулей — подсчитывается число нулей на интервале времени Т. 

Алгоритм распознавания звукового образа с использованием динамических 
портретов звука можно представить в виде последовательности следующих этапов: 

1. Аналоговый сигнал из микрофона попадает на вход звуковой карты. 

2. В звуковой карте аналоговый сигнал преобразуется в цифровой. При этом 
программа звукозаписи при помощи драйвера звуковой карты генерирует звуковой 
файл формата \!АУ. 

3. Данные из этого файла с помощью специальной программы обрабатываются 
и на основании этих данных строится динамический портрет, который может быть 
выведен на экран. 

4. Дальнейшая обработка состоит в анализе динамических портретов звука с 
целью выделения образов фонем по специальному алгоритму. 

5. По выделенным фонемам может быть восстановлен текст, который диктовался 
человеком. 

Если первые две задачи решаются стандартными программными средствами, 
то для разработки алгоритма в задаче 4 необходимо создание специального АРМа, 
который бы позволял исследовать динамические портреты звука. 

Такая программа должна позволять на базе современных технических средств 
и стандартов представления акустической информации в персональном компьютере 
создавать динамические портреты из любого оцифрованного звука для последующего 
анализа речевых сигналов и выявления информативных признаков фонем звучащей 
речи и построения технических систем, использующих речевое управление. 


«Штучний 1нтелект» 12008 141 


зд. Данченков О.Й., Николаенко Д.В. 


В качестве технических средств исследования речевого сигнала может быть 
выбран мультимедийный набор персонального компьютера, в состав которого 
входит звуковая карта, позволяющая оцифровывать любой звук в диапазоне частот 
от 8000 Гц до 48000 Гц. 

В результате проведенных экспериментальных исследований была выбрана 
частота дискретизации сигнала 44100 Гц, что объясняется психофизическим 
эффектом сглаживания в слухе [4]. 16-битная оцифровка в совокупности с частотой 
дискретизации, равной 44100 Гц, дает предельное соотношение «сигнал/шум» 
около 98 ДБ. 

Дискретизация сигнала позволяет осуществлять комплексное исследование 
речевого сигнала, в частности, решение задачи идентификации по голосу, 
предполагающее обработку тонкой временной структуры сигнала. Нижний порог 
частоты дискретизации определяется на основании теории В.А. Котельникова и не 
превышает 20 кГц [5]. 

Для хранения оцифрованного звука был выбран формат файла \АУ, преиму- 
щества которого заключаются в отсутствии компрессии файла, что позволяет осу- 
ществлять прямой доступ к данным без предварительной декомпрессии, а также 
распространенности формата, надежности хранения данных, наличии наиболее 
полной технической документации. Структура формата \/АУ-файла приведена в табл. 1. 


Таблица 1 — Структура \!АУ-файла 


000ср/00101 — длина подблока заголовка 


018 — тип формата представления данных 
Число каналов (1 — моно, 2 — стерео) 


Идентификатор подблока заголовка ('Нте" — с пробелом в конце) 


Частота дискретизации, Гц 


Та6/1сь | 26/46 | Скорость передачи данных, байт/с (произведение числа каналов, 
астоты дискретизации и разрядности в байтах) 


15/206 26 |Число байт для представления одного отсчета (1 — 8 бит моно, 1 — 
16 бит стерео) 


В качестве языка программирования был выбран язык высокого уровня 
Реры 6, что объясняется наличием в этом языке программирования всех необхо- 
димых библиотек и методов для объектов, используемых в программе. Для иссле- 
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дования была написана программа, позволяющая получать динамические портреты 
речевого сигнала. Полученные портреты совпадают с динамическими портретами, 
полученными в работе [4]. На рис. 2 представлена исходная форма звукового сигнала, 
а на рис.3 приведен динамический портрет этого звукового сигнала. В качестве 
звукового сигнала было использовано слово «сочиться». 

АРМ имеет окно с двумя закладками. Одна — для отображения динамического 
портрета, другая — для отображения исходной (реальной) волны речевого потока. 
АРМ позволяет сохранять полученный динамический портрет в формате ВМР- 
файла, распечатывать на принтере, масштабировать изображение динамического 
портрета, отображать экстремумы либо точками, либо в виде числовых значений для 
удобства анализа и восприятия. 
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Рисунок 2 — Исходная форма слова «сочиться» 
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Рисунок 3 — Динамический портрет слова «сочиться» 
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Заключение 


Проведенный анализ существующих методов распознавания речи показал, 
что одним из возможных методов распознавания звукового образа является 
алгоритм с использованием динамических портретов речевых сигналов. Полученные 
результаты построения динамических портретов позволили на практике определить 
параметры дискретизации речевого сигнала с учетом психофизического эффекта их 
сглаживания в слуховом аппарате человека. Результаты работы в перспективе могут 
быть использованы при решении научных проблем акустического анализа речи. 
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О.1. Данченков, Д.В. Нколаенко 

Використання динам!чних портрет звуку при розшзнаванн! мовного сигналу 

Розглядаеться наукова проблема розшзнавання мовних образв. Проведений аналз сучасних 
комп’ютерних засобв голосового управлння. Сформульована структура користувацького звукового 
1нтерфейсу. Запропоновано використання динам1чних портретв звуку як частини процесу визначення 
параметрав звукового сигналу, що анал1зуеться. 


О.1. Рапсйепкоу, О.Г. Мкоаепко 

'Тве изшо о! дупапис 50ип@ рогёгай$ Гог 5реесв $10па! ипдег%ап@ то 

Тве зсепЯЙс ргоет оЁ гесосш@оп о зреесВ ипазез 15 сопз14еге4. Те апа!у515 оР тодеги сотрщег 
шзбитет6 ог уо1се сопёо| 1$ сагмеЯ оч. Тбе збтасвиге оЁ фе изег зоипа имегЁсе 15 Югишаеч4. Тре 
зегасфиге оЁ 4упапис зоип4 рогга1$ аз а рагё оЁ ргосезз оР дейтоп оЁ рагатеегз оЁ ап апауте4 зоипа 
з1епа! 1$ оЁеге4. 
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